相机陷阱是监视收集大量图片的野生动植物的策略。从每个物种收集的图像数量通常遵循长尾分布,即,一些类有大量实例,而许多物种只有很小的比例。尽管在大多数情况下,这些稀有物种是生态学家感兴趣的类别,但在使用深度学习模型时,它们通常被忽略,因为这些模型需要大量的培训图像。在这项工作中,我们系统地评估了最近提出的技术 - 即平方根重新采样,平衡的焦点损失和平衡的组软效果 - 以解决相机陷阱图像中动物物种的长尾视觉识别。为了得出更一般的结论,我们评估了四个计算机视觉模型家族(Resnet,Mobilenetv3,EdgitionNetV2和Swin Transformer)和具有不同特征不同的相机陷阱数据集的四个家族。最初,我们用最新的培训技巧准备了一个健壮的基线,然后应用了改善长尾识别的方法。我们的实验表明,Swin Transformer可以在不应用任何其他方法处理不平衡的方法的情况下达到稀有类别的高性能,WCS数据集的总体准确性为88.76%,Snapshot Serengeti的总体准确性为94.97%,考虑到基于位置的火车/测试拆分。通常,平方根采样是一种方法,它最大程度地提高了少数族裔阶级的表现约为10%,但以降低多数类准确性至少4%的代价。这些结果促使我们使用合并平方根采样和基线的合奏提出了一种简单有效的方法。拟议的方法实现了尾巴级的性能与头等阶级准确性的成本之间的最佳权衡。
translated by 谷歌翻译